菜鸟团一周文献推荐(No.4)
今后如果没有特殊情况,生信菜鸟团成员将每周为大家带来一期文献速递,推荐我们过去一周看到的好文献。所有的推荐完全不独立公正第三方,只是根据个人喜好推荐,希望对你有所帮助。
目前已经更新到第四期,也就是一个月过去了。因为菜鸟团的成员们输出能力太强,如果这个「每周文献推荐」的专栏阅读量不过1000,下一次就要暂时停掉。如果你觉得已经过去的四期「每周文献推荐」应该继续坚持下去,那就赶紧动手转发推荐给你的盆友吧,笔芯
供稿人:冰糖
文章信息
题目:NITPicker: selecting time points for follow-up experiments
杂志:BMC Bioinformatics
时间:2 April 2019(Published)
链接:
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2717-5
figure
A图:红色曲线是对照,蓝色曲线为建模数据,黑色曲线为测试数据。
B图:NITPicker取时间点、随机取时间点和均匀取时间点的错误率比较,NITPicker的错误率最小。
文章介绍:
实验设计是一件非常重要的事情,它可以决定实验成败和结果可信与否。而在实验设计中,时间点的选择是很重要的事情(特定的时间点取样、测定),错误的时间点选择甚至会导致结果出现完全相反的情况,比如说,一个基因的表达随着时间进展呈现“倒钟形”曲线,那么如果时间点取在前半部分,就会得出基因表达随时间而上升的结论;然而如果时间点取在后半部分,那么就会得出基因表达随时间而下降的结论。
本文提出了一个工具NITPicker,用来选择合适的时间点,所需要的就是一个高分辨率的实验数据进行建模,然后就可以得出一组恰当的时间点用于后续实验。这么说为了获得理想的时间点,首先需要一个高分辨率的实验数据(高分辨就是说时间点密集、时间范围大),然后才能建模。如果有钱做高分辨率,而且已经获得数据了,还要这个工具再预测时间点能有什么用??其实这个工具是用于这样一种情形的:已经有高分辨率实验数据发表的情况下,经费紧张的实验室无法重复高分辨率实验,可以预测一下关键时间点,就可以降低实验规模。此外由于这个工具的预测性不错,所以有相类似作用或者相关的一组基因可以相互预测,也就可以发挥对实验的指导作用。
预测时间点的工具,除了NITPicker,还有TPS(Time Point Selection),但是相比较而言,NITPicker有三个优势:(1)TPS使用贪婪算法,获得的最佳点只是局部最优,而NITPicker使用modified Viterbi algorithm,可以获得全局最优;(2)TPS是在对数据做拟合处理,如果单纯做重复试验,它的效用很好,但是当对实验进行少许改动后,它的预测性能就会很差,相比较而言,NITPicker获得一个概率分布曲线以用于预测时间点,更能适用于实验条件改变的情形;(3)TPS直接对高分辨率的基因表达数据做拟合,因此会在类似于噪音区域的快速波动区域取值更多的时间点,然而这些噪声并没有什么用。NITPicker使用概率密度取值,因此能在有生物学意义的区域选取更多的时间点。
供稿人:大吉
文章信息
题目:epic2 efficiently finds diffuse domains in ChIP-seq data
杂志:Bioinformatics
时间:2019 Mar 28
链接:
https://doi.org/10.1093/bioinformatics/btz232
figure
文章介绍:
ChIP-seq基于DNA与蛋白交联片段的测序获得互作位点。常用的MACS2能够鉴定中等片段一下的peaks,在参数设置中选择查找宽峰 (broad peaks) 时,程序仅仅将窄峰 (narrow peaks) 连接,但是这种处理方式并不能完全识别ChIP-seq中的弥散信号(diffuse signals)。虽然,SICER ( Spatial Clustering for Identification of ChIP-Enriched Regions) 能够通过判断得分高于参考的区域中ChIP-seq read是否真正富集,并使用 BenjaminiHochberg procedure 方法多次校正P值能够较好的解决弥散信号的处理,但是SICER程序比较繁琐,需要耗费更多的计算时间及计算机内存,因此并不适合大规模数据分析。
这里作者通过cyrhon重写了epic2,能够完全重复SICER的运行的结果。在相同基因组规模的ChIP-seq数据 ( H3K27me3 ChIP-seq ) 测试中,epic2软件的速度提高了约30倍,并且使用的内存不到SICER的1/7。
地址如下:https://github.com/biocore-ntnu/epic2,同时支持Bioconda安装。
供稿人:鲍志炜
文章信息
题目:Meta-analysis of fecal metagenomes reveals global microbial signatures that are specific for colorectal cancer
杂志:Nature Medicine
时间:01 April 2019
链接:https://doi.org/10.1038/s41591-019-0406-6
figure
文章介绍:
在这项研究中,作者纳入来自欧美、东亚地区的8个人群的粪便宏基因组数据(其中 7 个人群来自已发表的数据),共包括来自 386 例癌症病例(CRC)和 392 例对照样本(CTRL)。因为这些样本来自不同地区,不同的研究团队,作者首先对这些原始数据进行了相同的标准化分析(使用 mOTUs2 来进行菌群注释,使用 MOCAT2 流程进行功能分析)。研究发现在结直肠癌(CRC)患者的粪便菌群中有29个菌种显著富集。接着,作者训练了多变量分类模型,从菌群分类学水平和功能微生物组水水平来鉴别 CRC 状态。同时,结果表明来自单个CRC研究的特征菌群,同样可预测其他研究中的CRC患者。CRC 宏基因组功能分析表明,在 CRC 患者的肠道中,分解蛋白质和粘蛋白的基因增多,降解碳水化合物的基因减少;CRC 患者体内的次级胆汁酸产量可能增加,表明癌症相关的肠道微生物与富含脂肪和肉类的饮食之间存在代谢联系。这些宏基因组信息有望用于全球范围内的结直肠癌诊断。
供稿人:lakeseafly
文章信息
题目:Copy Number Variation in Domestication
杂志:Trends in plant science
时间:Feb 2019
链接:
https://www.cell.com/trends/plant-science/fulltext/S1360-1385(19)30015-9
figure
该图主要讲述了CNV形成的四种机制,分别是(A) Nonallelic homologous recombination, (B) Single-strand annealing,(C) Transposon excision,(D) Retro-gene formation
文章介绍:
摘要
驯化植物长期以来一直是研究进化的首选。目前研究者已经鉴定了许多重要与驯化性状相关的基因和突变,并且大多数因果突变都是由SNPs所导致的。但是拷贝数变异(CNV)也是遗传变异的重要来源,往往在驯化研究中被忽视掉。目前一直以来的研究已经证明了CNV是驯化过程中遗传变异的重要来源,已经在导致驯化分群多样化的现象中具有非常重要得作用。在本综述中,研究者将回顾CNV是如何促进驯化的进化的,并回顾CNV所引起的驯化特征的相关例子。
本文亮点
通过例子说明了全基因组重测序,泛基因组学得发展和相关工具算法的开发,已经允许研究者在不同物种中探测到其不同的CNV pattern的存在。
研究者发现功能丧失的CNV可以引起植物中的一些关键的驯化特征,而其它的CNV与后遗传多样化特征相关,例如环境适应性,抗病性,果实大小和文化偏好。
使用表格得形式总结了植物和动物中的CNV引起导致的驯化相关的表型特征。
个人评价
该文章是一篇很好的综述,详细地解析了,CNV的形成,总结了植物和动物中由CNV引起导致的驯化相关的表型特征,值得做植物CNV相关的这方面研究的同学一读。
供稿人:Sunshine
文章信息
题目:Tumor mutation burden and recurrent tumors in hereditary lung cancer
杂志:Cancer Medicine
时间:2019 Apr 2
链接:
https://www.ncbi.nlm.nih.gov/pubmed/30941903
figure
文章介绍:
肺癌是全球癌症死亡的主要原因,癌症复发占癌症死亡率的大部分。这种机制尚不清楚,特别是在没有已知的突变遗传性肺癌中。因此,迫切需要确定与遗传性肺癌和复发有关的遗传变异。文章从一位独特的遗传性肺癌患者的血液中收集了first cancer tissue (T1), adjacent normal tissue (N1), relapse cancer tissue (T2), and adjacent normal tissue (N2)用于全基因组测序。文章作者找到了 T1和T2组织上具体的突变,并将其归因于肿瘤发生和复发。这些肿瘤特异性突变可以富集到特定的抗原呈递通路上。此外,作者还借助了TCGA数据库,用了TCGA肺腺癌队列数据集的用于证实作者自己的发现。他们发现肿瘤特异性基因突变负荷高的患者无复发生存率下降(P = 0.017,n = 186)。此外,该研究研究为用于设计遗传性肺癌的免疫治疗,提供重要见解。这篇文章影响因子不高,其主要的一个因素是只对一个病人,进行了全基因组测序,样本量比较少,不过,对于想发文章的同学来说,依旧是一个参考的模板。
供稿人:kaopubear
文章信息
题目:Error, noise and bias in de novo transcriptome assemblies
杂志:biorxiv
时间:March 22, 2019
链接: https://doi.org/10.1101/585745
figure
详细讨论转录组de novo 拼接的那点事。
文章介绍:
这篇发表在biorxiv的文章,从多个方面阐述了转录本拼接本身存在的问题。这其中包括作者评估的几个算法都没有拼出数百个真是表达的基因,一大部分拼接处的contigs 完全由内含子和UTR组成;对转录本有效长度的不准确给定量带来了很大的偏差等等。最后建议现在测序价格便宜了,能拼基因组就拼基因组吧。(这道理难道我不懂么,我只是没钱)。
这篇文章更值得参考的是他做的分析和采用的方法,50页的文本非常详细的记录了具体的分析过程以及参数。也提醒了我们在做类似的分析是有哪些角度可以思考。
主要分析流程
Short read processing:trimgalore
De novo transcriptome assembly
TRINITY
SHANNON
BINPACKER
BUSCO
Assembly and read functional composition
Coverage of reference transcripts and genes
RSEM
TRANSDECODER
Expression estimation
Analysis of missing genes
PANTHER
Evaluating assembly redundancy
SNP-based analysis of assembly composition
如果你觉得过去四期「每周文献推荐」应该继续坚持下去,那就赶紧动手转发推荐给你的盆友吧,笔芯
下周再见